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基于 密度 聚 类 算法 的 校园 人 群 聚集 和 移动 规律 分 析 
郭 玉 彬 ， 吴 宇航 ， 周 哲 帆 ， 李 西 明 - 
(华南 农业 大 学 数学 与 信息 学 院 ， 广州 510642) 


摘 要 : 针对 菜 高 校 无 线 网 日 志 数 据 进 行 挖 据 分 析 ， 获 取 校 园 人 群 聚集 点 分 布 和 人 群 移动 规律 。 首 先 利用 分 布 式 统 
计算 法 统计 校园 内 各 建筑 物 的 无 线 网 络 连接 人 次 ; 然后 建立 校园 建筑 物 的 中 心 点 经 纬 坐 标的 R- 树 索引 ， 并 对 R- 树 
叶子 节点 分 组 ， 以 此 将 校园 分 成 几 个 部 分 ; 再 利用 密度 聚 类 算法 对 校园 每 一 个 部 分 中 的 建筑 物 中 心 点 经 纬 坐标 进行 
聚 类 得 到 校园 区 域 划 分 ; 最 后 结合 聚 类 结果 和 统计 结果 获取 人 群 聚集 区 域 和 区 域 之 间 人 群 移动 规律 。 研 究 结 果 可 为 
学 校 校车 路 径 规划 、 共 享 单车 部 署 和 校园 功能 区 规划 等 工作 提供 参考 。 
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Analysis of crowd aggregation and movement on campus based on density clustering algorithm 


Guo Yubin, Wu Yuhang, Zhou Zhefan, Li Ximingi 
(College of Mathematics & Information, South China Agricultural University, Guangzhou 510642, China) 


Abstract: This paper analyzed the wireless network log data of a university to study the law of crowd aggregation and 
movement on campus. Firstly, the number of wireless network connections of each building was obtained by distributed 
statistical algorithms on campus. Then it established the R-tree index of building central latitude-longitude coordinates, and 
grouped the R-tree leaf nodes to divide the campus into parts. Next it clustered the building central latitude-longitude 
coordinates of each part to get the campus area division by the density clustering algorithm. Finally, this paper got the law of 
crowd aggregation area and movement between areas from clustering results and statistical results. Experimental results 
provide references for school bus routing, shared bicycle deployment and campus function area planning etc. 
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0 引言 用 设备 上 下 线 的 时 间 ， 得 到 两 点 之 间 的 移动 速度 ， 提 取 用 户 
一 移动 特性 ， 并 准确 描述 用 户 移动 行为 。 

随 着 移动 互联 网 技术 的 快速 发 展 ， 我 国 多 数 高 校 已 完成 在 人 群 聚 集 和 移动 规律 研究 中 ， 聚 类 是 一 种 有 效 的 分 析 

或 正在 进行 无 线 网 络 全 禾 六 工作， 与 之 相 适 应 ， 校 园 网 的 无 。 方法。 文献 [3] 利 用 聚 类 技术 ， 从 空间 和 时 间 两 个 维度 对 用 户 
线 上 网 日 志 数 据 呈 爆炸 式 增长 。 笔 者 所 在 高 校 ， 宿 舍 与 办 公 ”轨迹 数据 进行 两 阶段 聚 类 ， 以 此 构建 用 户 兴 趣 区 。 文 献 [6] 
区 己 实 现 全 覆盖 ，2018 年 上 半年 仅 上 网 认证 数据 就 达到 利用 DBSCAN(density based spatial clustering of applications 
252 515 722 条 (2.5 多 亿 条 )。 这 些 日 志 数 据 主要 包含 用 户 移动 ”with noise) 对 人 和 群 聚集 热点 区 域 进行 提取 和 分 析 , 发 现 相同 时 
设备 的 MAC 地 址 、 上 下 线 时 间 、 连 接 无 线 访 问 接 入 点 。 间 段 之 间 热 点 区 域 存在 较 高 的 覆盖 率 ， 而 不 同时 间 段 的 热点 
(wireless access point， 简 称 无 线 AP) 的 名 称 和 离线 原因 等 信 区域 存在 较 大 的 差异 的 规律 。 除 了 聚 类 算法 外 ， 学 者 们 还 有 


F 


息 。 通 过 对 日 志 信 息 的 分 析 ， 可 以 得 到 校园 人 群 分 布 、 人 群 。 利用 神经 网 络 中 和 统计 法 外 等 方法 来 发 现 人 群 移动 规律 等 。 
移动 等 规律 性 信息 ， 而 这 些 信 息 可 以 为 诸如 校 巴 调 度 ， 共 享 针对 校园 内 人 和 群 聚集 和 移动 规律 也 有 一 些 学 者 进行 了 三 
单车 部 署 与 路 线 设 计 和 校园 功能 区 规划 等 工作 提供 参考 。 究 。 文 献 [9] 利 用 DBSCAN 算法 对 武汉 大 学 学 生 轨迹 数据 进 
人 群 聚集 和 移动 规律 分 析 是 当前 大 数据 背景 下 的 研究 热 。 ” 行 聚 类 ， 提 取 聚 集 点 ， 并 分 析 学 生 各 类 活动 时 段 分 布 。 该 论 
点 .文献 [提出 了 基于 GPS 轨迹 的 兴趣 点 和 出 行规 划 挖 掘 方 ” 文 对 利用 GPS 数据 研究 学 生 行为 工作 具有 参考 意义 , 其 不 足 
法 ， 利 用 用 户 个 人 位 置 历史 数据 结合 出 行经 验 ， 发 现 了 研究 ”之 处 在 于 轨迹 数据 来 自 志 愿 者 ， 数 据 量 较 少 且 代 表 性 不 足 。 
区 域 的 十 大 兴趣 点 和 用 户 在 各 个 兴趣 点 之 间 的 出 行规 律 ; 文 文献 [10] 利 用 加 拿 大 蒙特 利 尔 康 戈 迪 亚 大 学 的 Wi-Fi 网 络 
献 [2] 通 过 获取 大 量 的 手机 用 户 位 置信 息 , 分析 用 户 六 个 月 的 。” 志 数 据 进行 分 析 和 聚 类 ， 识 别 了 网 络 用 户 在 建筑 物 内 活动 类 
轨迹 数据 得 出 人 类 移动 时 空 规 律 性 ; 文献 [3] 分 析 大 量 的 私家 ”型 ， 如 上 下 课 ， 办 公 ， 在 公共 区 域 使 用 网 络 ， 并 且 提 出 搜索 
册 


车 GPS 轨迹 数据 ,给 出 人 们 频繁 的 出 行 方式 ， 并 预测 近期 交 。 算法 ， 用 于 关联 网 络 用 户 多 天 中 同一 类 型 的 活动 。 此 论文 针 
通 热点 区 域 和 某 个 区 域 拥堵 可 能 性 。 除 了 利用 轨迹 数据 ， 还 ”对 的 人 群 移动 范围 较 小 ,没有 考虑 建筑 物 之 间 人 群 移动 问题 。 
有 一 些 研究 利用 Wi-Fi 网 络 日 志 数 据 分 析 人 群体 聚集 或 移动 与 轨迹 数据 相 比 ,校园 无 线 网 络 的 日 志 数 据 量 大 且 稳 定 ， 
规律 ， 文 献 [ 和 通过 Wi-Fi 网 络 日 志 建 立 了 一 个 移动 模型 ， 利 ”更 能 反映 人 群 聚集 与 移动 情况 。 本 文 对 某 高 校 无 线 网 络 的 
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志 数 据 进行 处 理 和 分 析 , 首先 利用 
布 式 统计 算法 统计 每 一 栋 建筑 的 
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DBSCAN 算法 是 一 种 利 | 


] 类 的 高 密度 连通 性 


来 快速 发 


网 络 连 接 设备 数量 ， 统 计 结 果 表 示 每 一 栋 建筑 物 的 所 有 无 线 。 现任 意 形状 类 的 密度 聚 类 算法 (12, DBSCAN 算法 的 基本 思想 
AP 的 连接 人 次 ?的 总 和 。 然 后 对 研究 区 域 所 有 建筑 物 中 心经 是 对 于 一 个 类 中 J 在 其 给 定 半径 的 领域 中 包含 的 
纬 坐标 建立 R- 树 索引 , 并 对 R- 树 叶子 节点 分 组 , 粗略 地 将 校 ” 对象 不 能 少 于 某 一 给 定 的 最 小 数目 。 令 样本 集 
园 划 分 不 同 部 分 ， 再 利用 密度 聚 类 算法 对 校园 每 一 部 分 中 心 D={n,»,…,X%} ， 样 本 加 。 取 s>0，minPis 为 正 整数 ， 
经 纬 坐标 进行 聚 类 得 到 校园 详细 的 区 域 划分 。 最 后 结合 聚 类  ” 则 有 如 下 定义 : a) 5 的 2- 邻 域 ， 包含 在 D 中 且 与 * 的 距离 
结果 和 统计 结果 得 到 人 群 热点 分 布 区 域 和 区 域 之 间 人 和 群 移动 不 大 于 < 的 样本 集合 ; b) 核心 对 象 ， 如 果 忆 的 2- 邻 域 至 少 
规律 。 本 论文 利用 R- 树 索引 解决 中 心经 纬 坐标 动态 变化 的 问 包含 min Prs 个 样本 ， 则 尺 为 核心 对 象 ; c) 边界 点 ，% 本 身 不 
题 ， 可 长 期 、 持 续 对 校园 网 日 志 数 据 进行 处 理 而 不 受 校 园 网 是 核心 点 ,但 它 包 含 在 另外 一 个 核心 点 羽 的 2- 邻 域内 , 则 称 
扩建 和 AP 不 稳定 的 影响 ， 增 加 了 实验 的 灵活 性 。 另 外 ， 采 ”为 边界 点 ; d) 噪声 点 ,数据 集合 中 既 不 是 核心 点 也 不 是 边界 
用 MapReduce 计算 模式 实现 核心 算法 , 提高 了 大 数据 处 理 效 。 点 的 其 他 点 称 为 噪声 点 ; e) 密度 直 达 ， 如 果 忆 位 于 坟 的 6- 
率 。 图 1 是 本 文 算法 整体 流程 图 。 邻 域 中 ， 且 忆 是 核心 对 象 ， 则 称 % 由 羽 密度 直达 ; f) 密度 可 
WA 站 对 和 -部 人 的 中 心 8 征 达 ， 对 于 坞 和 x ， 如 果 存 在 样本 序列 pi,p,…,pr ,满足 p=%， 
疆 才 下 一 时 峰 得 以 节 E pr = 尺 , 且 对 任意 te.…,T-1] ，p 由 pi 密度 直达 ， 则 称 尺 由 
城 从 ,密度 可 达 ; g) 密度 相连 ， 对 于 和 改 ， 如 果 存 在 核心 对 
象 样本 4 ,使 和 专 均 由 4 密度 可 达 , 则 称 x 和 忌 密 度 相 连 。 
输入 无 线 网 统计 每 一 个 天 线 匹配 每 一 个 区 域 的 无 线 ， 输出 最 终 的 | ae et eh a a 
绚 志 数据 ”Ap 的 省 人 次 Jp 的 过 人 六 并 求 和 时 i ed et 
b) 如 果 P 是 核心 对 象 , 找 出 P 的:- 邻 域 所 有 密度 可 达 点 。 
图 1 算法 整体 流程 图 co) 如 果 P 是 一 个 边界 点 ， 没 有 对 象 从 P 密度 可 达 , P 被 
Fig. 1 Algorithm overall flow chart 和 暂时 标注 为 噪声 点 。 
1 相关 技术 d) 重 复 a) ~d)， 直 到 了 D 中 所 有 对 象 都 被 标记 为 已 读 。 
e) 针 对 所 有 核心 对 象 的 = - 邻 域 的 直接 密度 可 达 点 找到 最 
1.1 R- 树 大 密度 相连 对 象 集合 。 
R- 树 是 一 个 层次 化 的 、 高 度 平衡 的 多 层 数据 结构 ， 是 B- 重复 e) 直到 所 有 核心 对 象 的 2 - 邻 域 人 遍历 完毕 。 
树 在 多 维 数据 空间 上 的 自然 扩展 00，R- 树 的 每 个 节点 对 应 一 DBSCAN 算法 优点 是 具有 较 强 的 抗 噪声 干扰 和 发 现任 
个 最 小 外 包 框 (minimum bounding rectangle,MBR) ,该 MBR 意 形 状 类 等 优点 031。 其 缺点 是 需要 找 出 所 有 的 密度 核心 对 
是 包围 所 有 子 节点 的 最 小 空间 范围 。 图 2 是 R- 树 的 示例 ,其 象 ， 同 时 参数 和 min Pr 需要 人 为 确定 ， 存 在 一 定 的 人 为 误 
中 (a) 是 数据 项 分 布 情况 ， 图 中 实 线 框 表示 空间 对 象 的 MBR， 差 。 参 数 。 和 min Pr 影响 聚 类 质量 ， 如 果 < 取 值 过 大 ， 会 导 
其 可 为 二 维 坐标 ， 如 经 纬 坐 标 ， 表 示 若 干 二 维 形状 的 最 大 范 致 大 多 数 点 都 聚 到 同一 个 类 中 ， < 取 值 过 小 ， 会 导致 一 个 类 
围 。 虚 线 框 表示 中 间 节 点 索引 项 对 应 的 索引 空间 。 图 2(b) 是 ”的 分 裂 ， 如 果 min Prs 取 值 过 大 ， 会 导致 在 同一 个 类 中 点 被 标 
其 对 应 的 R- 树 图 。 记 为 非 核心 对 象 ，min Prs 取 值 过 小 ， 会 导致 发 现 大 量 的 核心 
有 人 上 全 对 象 。 针 对 DBSCAN 算法 的 不 足 ， 国 内 外 学 者 提出 了 许多 
"| aE 改进 算法 , 例如 M-FDBSCANI4 算 法 、HDBSCAN05 算 法 等 。 
| BE | 
Es ! 2 实验 准备 
L | 2.1 源 数据 说 明 
i i! 本 文 实验 数据 来 自 某 高 校 无 线 网 络 设备 日 志 ， 抽 取 了 
a a 2017 年 3 月 份 无 线 网 络 认证 数据 作为 源 数据 ， 一 共 
ee 0 一 -一 39 478 898 条 数据 。 表 1 给 出 无 线 网 络 日 志 结 构 说 明 。 
(a) 数据 项 分 布 图 (b) R- 树 数据 结构 图 表 1 无 线 网 络 日 志 描 述 
图 2 R- 树 示例 图 Table ] Wireless network log description 
Fig.2 Example of R-tree 名 称 类 型 长 度 说 明 
假设 m(2<=m<=M/2) 为 节点 包含 的 索引 项 (数据 项 ) 的 最 SEQ INT 100 唯一 标志 符 
小 数目 ，R- 树 需要 满足 以 下 性 质 : DATE DATE 100 志 产 生日 期 
a) 除根 节点 之 外 ,所 有 中 间 节 点 包含 有 ma (m=M/2) 至 M TIME TIME 100 志 产 生 时 间 
个 记录 索引 。 MESSAGE VARCHAR 1000 志 内 容 
b) 根 节 点 至 少 有 两 叶子 节点 ， 除 非 它 同时 是 叶子 节点 。 表 1 中 ，SEQ 字段 是 日 志 数 据 的 唯一 标志 符 ，DATE 表 
c) 每 一 个 叶子 节点 拥有 mlm=M/2) 至 M 个 数据 项 。 示 本 条 日 志 产 生 的 日 期 ，TIME 是 具体 产生 的 时 间 ， 精 确 到 
d) 所 有 的 节点 都 需要 同样 的 存储 空间 。 微 秒 。MESSAGE 字段 是 当前 日 志 的 日 志 内 容 ， 里 面包 含 了 
e) 所 有 叶子 节点 都 位 于 同一 层次 。 移动 设备 的 MAC 地 址 、 当 前 连接 无 线 AP 名 字 、 设 备 连 接 
状态 信息 等 。 设 备 连 接 状态 有 上 线 、 下 线 和 漫游 3 种 。 同 时 ， 
本 文 还 对 所 有 的 无 线 AP 信息 进行 汇总 ， 如 表 2 所 示 。 


是 中 心 


经 纬 坐标 : 


”连接 人 次 : 无 线 网 络 的 连接 人 次 


建筑 物 中 心 点 的 经 纬 坐标 


表 2 中 , AP_NAME 字 
表示 当前 无 线 AP 的 MAC 


段 表示 无 线 AP 的 名 称 , AP_MAC 
也 址 


， 也 是 无 线 AP 的 唯一 标志 ， 
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CEN_GPS 表示 建筑 物 中 心 点 的 经 纬 坐 标 ，BUILDING 表示 到 预 处 理 结果 。 
无 线 AP 所 在 的 建筑 物 名 称 。 在 此 表 中 ， 由 于 同一 栋 建 筑 物 表 3 给 出 预 处 理 后 关于 移动 设备 0000.00d1.ab46 的 2017 
中 无 线 AP 距离 相距 比较 近 且 每 一 栋 建筑 物 无 线 AP 数量 比 。 年 3 月 31 日 移动 记录 ， 表 示 此 设备 在 当天 07:56:44 时 刻 在 
较 多 ， 因 此 取 建 筑 物 中 心 点 的 经 纬 坐标 代表 建筑 物 中 所 有 无 。 外 语 学 院 连接 无 线 AP， 在 08:18:40 时 刻 在 生命 科学 学 院 连 


线 AP 的 实际 的 经 纬 坐 标 ， 使 建筑 物 的 无 线 AP 表示 更 加 简 灾 无 线 AP， 在 14:34:04 时 刻 在 林学 院 连接 无 线 AP。 由 于 一 
化 同时 建筑 物 的 位 置 被 标记 。 天 中 MAC 和 DATE 以 及 CEN_GPS 字段 都 连续 相同 的 记录 
表 2 无 线 AP 表 只 保留 其 中 一 条 ,因此 表 3 实际 是 保存 设备 一 天 中 CEN_GPS 
Table 2 ” Wireless access point table 喜 化 的 信息 ， 对 应 用 户 一 天 中 的 位 置 变化 情况 。 
名 称 类 型 说 明 表 3 移动 设备 认证 位 置 变化 例子 
AP NAME VARCHAR 无 线 AP 名 称 Table 3 Example of authentication location changes for mobile device 
AP_MAC VARCHAR 无 线 AP 的 MAC 地 址 MAC DATE TIME CEN_GPS BUILDING 
CEN_GPS VARCHAR 建筑 物 中 心 点 的 经 纬 坐标 


0000.00d1.ab46 ”2017.3.31 07:56:44 ”113.371997,23.16637 ”外 国语 学 院 


BUILDING VARCHAR 无 线 AP 所 在 建筑 物 名 称 
2.2 数据 预 处 理 


0000.00d1.ab46 2017.3.31 08:18:40 ”113.366686,23.164849 ”生命 科学 学 院 


0000.00d1.ab46 ”2017.3.31 14:34:04 113.367682,23.165515 林学 院 


数据 预 处 理 主要 是 选择 研究 时 段 的 日 志 数 据 ， 并 依据 日 
志 数据 中 MESSAGE 字段 出 错 标签 去 掉 出 错 数据 ， 然 后 从 日 SA 
志 数 据 中 获取 并 保存 每 一 个 设备 位 置 变化 信息 。 出 错 数据 包 3 实验 及 结果 分 析 
括 认证 出 错 数 据 和 无 线 AP 设备 出 错 数据 等 。 位 置 变 化 信息 本 文 实验 使 用 Hadoop 集群 进行 数据 处 理 ， 集 群 包含 
例子 如 表 3 所 示 ， 每 一 条 数据 记录 某 一 设备 在 某 一 个 时 刻 的 master 主机 1 台 , slaver 机 3 台 , 节点 配置 为 CPUi7- 8700K， 
位 置 。 具 体 过 程 如 下 : 内 存 8GB。 平 台 使 用 Centos7.0 操作 系统 ，Hadoop2.7。 
a) 将 无 线 网 络 日 志 信 息 数 据 表 和 无 线 AP 信息 表 保 存 到 本 文 实验 分 为 人 次 统计 和 密度 聚 类 两 个 过 程 。 在 统计 阶 
HDEFS 中 。 段 , 由 表 2 可知, 预 处 理 后 的 数据 同一 栋 建筑 物 所 有 无 线 AP 
b) 使 用 正则 表达 式 抽取 无 线 网 络 日 志 的 MASSAGE 字段 ”的 经 纬 坐 标 对 应 当前 建筑 物 中 心 点 的 经 纬 坐标 ， 即 中 心经 纬 


中 的 移动 设备 的 MAC 地 址 、 移 动 设备 连接 无 线 AP 所 在 的 ”坐标 ， 那 么 计算 每 一 个 中 心经 纬 坐标 对 应 连接 人 次 即 为 该 建 
建筑 物 名 称 ， 并 分 别 用 MAC 和 BUILDING 表示 ， 根 据 建筑 。 筑 物 中 所 有 无 线 AP 的 连接 人 次 总 和 。 在 聚 类 阶段 首先 对 无 
物 名 称 和 无 线 AP 表 匹 配 建筑 物 中 心经 纬 坐标 , 用 CEN_GPS ” 线 AP 表 中 的 中 心经 纬 坐标 建立 R- 树 索引 ， 并 根据 学 校 的 功 
表示 。 添加 当前 日 志 的 DATE、TIME 字段 ， 并 将 以 上 所 有 信 能 区 划分 将 R- 树 叶子 节点 进行 分 组 和 将 组 间 重 复数 据 归 类 
息 保 存 到 临时 表 。 到 距离 最 近 的 组 中 避免 聚 类 结果 数据 重复 。 最 后 对 每 一 组 的 

c) 将 无 线 AP 表 和 临时 表 以 CEN_GPS 字段 进行 两 表 相连 “叶子 节点 进行 密度 聚 类 ， 利 用 聚 类 结果 中 每 一 个 类 的 中 心经 
后 对 MAC 和 DATA 以 及 TIME 字段 进行 排序 。 只 保留 MAC ” 纬 坐 标 和 统计 结果 的 中 心经 纬 坐标 连接 人 次 相 匹 配 得 到 每 一 
和 DATA 以 及 CEN_GPS 字段 都 连续 相同 记录 的 第 一 条 ， 得 。 ”个 类 的 连接 和 人 次， 实验 流程 如 图 3 所 示 。 


人 次 统计 密度 聚 类 各 类 连接 人 次 匹配 
ap 阶段 奸 树 MapA 阶 段 
遍历 所 有 数据 项 ， 并 以 中 心 建立 有 关 校 园 所 有 中 心经 纬 输出 聚 类 结果 的 各 个 类 数据 
经 纬 坐 标 作 为 key，value=1 & 标 的 R- 树 索引 ， 并 对 R- 树 MapB 阶 段 
输出 9 叶子 节点 进行 分 组 输出 每 一 个 中 心经 纬 坐标 的 
连接 人 次 
Reduce 阶 段 DBSCAN 聚 类 Reduce 阶 段 
根据 Map 阶 段 输出 统计 每 一 个 对 每 一 组 R- 可 叶子 节点 进行 将 MapA 和 MapB 阶 段 输出 相 [ 匹 
中 心经 纬 坐标 的 连接 人 次 ， 聚 类 ， 保 存 聚 类 结果 配 ， 得 到 每 一 个 类 的 中 心经 
保存 统计 结果 纬 坐 标的 连接 人 次 


图 3 实验 流程 图 
Fig.3 Experiment flow chart 


3.1 人 次 统计 // 按 照 制 表 符 对 数据 切割 
人 次 统计 是 统计 预 处 理 数 据 ( 表 3) 的 每 一 个 中 心经 纬 string[] data =val.toStringO).split("\t"); 
坐标 对 应 的 网 络 连接 设备 数量 。 由 于 该 校 的 校园 无 线 网 络 账 string CEN_GPS= data[3]; 
户 不 能 同时 在 两 台 设 备 及 以 上 登录 ， 且 每 一 个 中 心经 纬 坐标 /以 中 心经 纬 坐标 作为 key 输出 
代表 一 栋 建 筑 物 ， 那 么 统计 建筑 物 中 所 有 无 线 AP 在 对 应 时 context write (new Text(CEN_GPS),1); 
间 内 的 网 络 连接 设备 数 总 和 ， 实 际 是 统计 建筑 物 中 所 有 无 线 // reduce 阶段 实际 统计 每 一 栋 建 筑 物 连接 人 次 
AP 在 对 应 时 间 内 的 网 络 连 接 人 次 总 和 。 人 次 统计 过 程 见 算 reduce(Text key, Iterable<Text> values, Context context): // Reduce 
法 1。 阶段 
算法 1 按时 间 段 选择 的 预 处 理 数据 int num=0; 
输入 : 预 处 理 后 的 日 志文 件 / 遍历 迭 代 器 ; 
输出 : 各 个 中 心经 纬 坐 标的 连接 人 次 总 和 for each val in values 
/map 阶段 遍历 所 有 数据 项 num++; /统计 数量 


map(LongWritable key, Text value, Context context): end for 
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value> 形 式 存储 ， 按 照 人 


context.write (null, key+”"+numy) ; 


定稿 郭 玉 彬 ， 等 : 


// 输 出 结果 

介 段 逐 行 遍历 预 处 理 数据 ， 并 以 <key， 
上 表 符 对 value 进行 切割 保存 在 data 
取出 中 心经 纬 坐 标 传 给 reduce 阶段 。 在 reduce 阶 


a 


在 算法 1 中, Map 


dt 


段 累加 每 一 个 key 对 应 迭代 器 的 值 既 是 各 个 中 心经 纬 坐标 的 


从 而 影响 到 中 心经 纬 坐 标 数量 ， 为 了 


绩 4 


标 建 立 R- 树 索引 ， 
节点 进行 分 组 和 将 组 间 重 复数 据 归 类 到 距离 最 近 的 组 中 ; b) 
对 每 一 组 的 数据 进行 密度 聚 类 ， 利 
中 心经 纬 坐标 和 统计 结果 的 中 心经 纬 坐 标 连接 人 次 相 匹 配 得 
到 每 一 个 类 的 中 心经 纬 坐标 的 连接 人 次 。 


连接 人 次 。 
3.2 密度 聚 类 


密度 聚 类 过 程 分 成 两 个 步骤 : a) 对 校园 内 所 有 的 中 心经 
根据 学 校 的 功能 区 划分 将 R- 树 叶子 


j 聚 类 结果 中 每 一 个 类 的 


于 学 校 无 线 网 络 存在 不 定时 扩建 和 网 络 不 稳定 状态 ， 
为 了 适应 中 心经 纬 坐标 动态 


变化 和 让 聚 类 结果 更 加 准确 ， 本 文 对 中 心经 纬 坐 标 建立 R 树 
索引 , 通过 R- 树 的 增加 或 减少 叶子 节点 的 方法 来 增加 或 者 减 


少 中 心经 纬 坐标 。 建 立 R- 树 索引 
划分 将 同一 个 功能 区 的 中 心经 纬 坐标 汇 
树叶 子 节点 进行 分 组 。 假如 将 R- 树 叶子 节点 分 成 n 组 ， 那么 
从 R- 树 某 一 层 


的 所 有 叶子 节点 


后 ， 为 了 能 按照 学 校 功 能 区 
集 一 起 ， 即 需 对 R- 


了 n 个 父 节 点 开始 分 别 抽取 每 一 个 父 节 点 对 应 
E 为 一 个 组 ， 并 将 组 间 重 复数 据 归 类 到 距离 
DBSCAN 聚 类 对 每 一 组 数据 进行 聚 类 ， 


的 组 中 。 利 用 


上 
地 将 校园 划分 不 同 的 小 区 域 ， 最 后 根据 聚 类 结果 和 统计 


结果 计算 出 每 一 个 类 的 每 一 个 中 心经 纬 坐标 对 应 连接 人 次 。 


类 到 其 距离 最 近 的 组 。 


本 文 建 立 R- 树 索引 及 分 组 的 过 程 如 下 : 

a) 从 无 线 AP 表 中 获取 所 有 中 心经 纬 坐标 。 

b) 对 中 心经 纬 坐标 建立 R- 树 索引 。 

0c) 将 RR- 树 的 叶子 节点 分 成 n 组 。 

中) 如 叶子 节点 同时 归属 两 个 组 及 两 组 以 上 ， 将 改 节点 归 


基于 R- 树 的 密度 聚 类 算法 ， 见 算法 2， 作 用 是 先 建立 中 


心经 纬 坐标 的 R- 树 索引 ， 并 将 R- 树 叶子 节点 进行 分 组 , 然后 


用 DBSCAN 聚 类 算法 对 每 


组 叶子 节点 进行 密度 聚 类 。 
算法 2 基于 有 R- 树 的 密度 聚 类 

输入 :中 心经 纬 坐标 集 dataTable。 

输出 :DBSCAN 聚 类 结果 。 

/Node 类 是 一 种 构造 R- 树 的 数据 结构 

class Node { 
final double[] coords; // 当 前 节点 值 
final boolean leaf; // 是 否 为 叶子 节点 
final LinkedList<Node> children;// 子 节点 


Node parent;// 父 节点 
} 
Node R_tree; 
List<String> cluster, clustersList =null; 
List<List<String>>clusters, dbClusters =null; 
// 建 立 R- 树 
RTree RTree =new RTree(); 
DBSCAN DBSCAN=new DBSCAN); 
for each data in dataTable 
/ 添加 数据 构建 R- 树 


R_tree =RTree.insert(data); 


end for 
1/ 将 R- 树 索引 中 叶子 节点 分 成 n 个 组 
int n=7; // 组 个 数 ， 暂 取 值 为 7 


基于 密度 聚 类 算法 的 校园 人 群 聚集 和 移动 规律 分 析 


包含 了 当前 节点 值 ， 子 节点 和 父 节点 等 属性 。 
insert() 方 法 代表 将 输入 的 数据 进行 构造 R- 树 数据 结构 并 保 
存在 一 个 全 局 变量 中 ，createClusterList0 方 法 代表 将 R- 树 的 
所 有 叶子 节点 分 成 n 组， 


中 


聚 类 结果 。 算 法 2 步骤 如 下 : 首先 调 


YY 
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// clusters 存储 每 一 组 中 心经 纬 坐标 


clusters =RTree.createClusterList(n); 

for each cluster in clusters 

/ 对 每 一 组 中 心经 纬 坐标 做 DBSCAN 算法 
clustersList =DBSCAN.execute(cluster); 
dbClusters.add(clustersList);// 保存 聚 类 结果 


end for 
return dbClusters; 
在 算法 2 中 ，Node 类 是 一 种 构造 R- 树 的 数据 结构 ， 


RTree 类 中 


返回 每 一 组 的 数据 。DBSCAN 类 
execute() 方 法 是 对 每 一 组 R- 树 的 叶子 节点 进行 聚 类 , 返 世 
] RTree.insert0 方 法 建 

然后 调 RTree. 


关于 中 心经 纬 坐标 的 R- 树 ， 


createClusterList() 方 法 时 将 R- 树 叶子 节点 分 成 n 组 ， 如 叶子 


节点 同时 归属 
所 有 组 的 中 心 ， 


个 组 及 以 上 ， 不 包含 该 叶子 节点 计算 其 所 在 
将 其 归 类 到 距离 最 近 的 中 心 所 对 应 的 组 中 。 


最 后 调用 DBSCAN.execute() 方 法 对 每 一 组 中 心经 纬 坐 标 做 
DBSCAN 聚 类 ， 返 回 并 保存 聚 类 结果 。 


对 每 一 组 数据 进行 聚 类 之 后 ， 最 后 需要 计算 每 一 个 类 的 


总 连接 人 次 ， 此 过 程 见 算法 3。 


算法 3 ”类 的 连接 人 次 匹配 
输入 :算法 1 统计 结果 ， 算 法 2 聚 类 结果 。 
出 : 类 的 连接 人 次 匹配 。 
MapA(LongWritable key, Text value, Context context): // MapA 阶段 ， 


Ea 


出 聚 类 结果 


String[] strA =val.toString().split("\t") 

String AP = strA [0];// 存 储 无 线 AP 

/存储 无 线 AP 对 应 的 类 

String clusterNum= strA [1]; 

context.write(new Text(AP), new Text(clusterNum)); 


MapB(LongWritable key, Text value, Context context): // MapB 阶段 ， 


输出 连接 人 次 统计 结果 


类 


String[] strB =value.toString().split("\t"); 
String AP = strB [0]; /存储 无 线 AP 
context.write(new Text(AP), value); 


Reduce(Text key, Iterable<Text> values, Context context): // Reduce 阶 


for each val in values 

String clusterNum;// 类 标记 
Text statisticData=new Text(); 
/判断 是 否 为 聚 类 结果 数据 
If val.indexof("\t")!=-1 
statisticData=val; ”// 保存 统计 结果 
else 
clusterNum=val; 。/W/ 标记 所 属 类 

end if 

end for 

context.write(null, new Text(statisticData +" "+ clusterNum)); 

// 输 出 结果 

在 算法 3 中 , MapA 和 MapB 阶段 分 别人 遍历 DBSCAN 聚 
结果 和 中 心经 纬 坐标 的 连接 人 次 统计 结果 ， 并 将 其 输出 给 


Reduce 阶段 。 在 Reduce 阶段 ， 首 先 根据 对 象 判断 数据 是 来 


自 


DBSCAN 聚 类 结果 还 是 统计 结果 ， 即 如 果 对 象 包含 一 个 
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录用 定稿 


制 表 符 ， 


则 


段 已 经 


] statisticData 保存 统计 结果 ， 否则 
保存 DBSCAN 聚 类 结果 ，statisticData 
同一 个 Reduce 对 象 中 ， 说 明 它们 的 中 心经 纬 坐标 是 相 
所 以 连接 字 


匹配 成 功 。 


郭 玉 彬 ， 等 : 


用 clusterNum 
和 clusterNum 出 现在 
同 的 ， 
最 后 设置 Reduce 阶段 的 key 


为 null，value 为 statisticData +" "+clusterNum， 即 可 输出 每 


一 个 中 心经 绕 


纬 坐标 和 其 对 应 的 类 的 连接 人 次 结果 。 求 和 即 可 


得 到 对 应 类 的 总 连 


3.3 实验 结果 及 分 析 
本 文 源 数 扩 


| 之 


能 区 分 成 7 大 块 , 根 提 


榜 人 次 。 


时 总 有 39 478 898 条 ， 预 处 理 后 
条 ， 学 校 的 无 线 AP 总 数 为 10,255 个 ， 提 取得 到 


13 290 271 
的 中 心经 纬 


上 《有 125 个 。 先 对 中 心经 纬 坐标 建立 R- 树 索引 ， 由 于 学 校 功 
居 学 校 的 功能 区 划分 将 R- 树 


叶子 节点 分 


加 


Fig. 4 
时 间 


不 同 
Table 4 Matching of cluster 


表 4 


成 7 


基于 密度 聚 类 算法 的 校园 人 群 聚集 和 移动 规律 分 析 


组 ,用 ABCDEFG 表示 。 对 于 
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DBSCAN 密 


本 文 E 和 min Prs 值 参考 了 文献 [16] 的 思路 ， 分 别 取 863.92 和 


3。 密 度 聚 类 将 研究 


不 。 


再 组 聚 类 后 分 另 


D1 、 
均 人 次 、 


日 


上 和 凌 


表 4 给 出 聚 类 结 
果 相 匹配 得 到 连接 人 次 匹配 结果 。 可 
1 得 到 一 个 类 ， 记 作 Al1、B1、F1、G1 和 Hil。 
C、D、E 三 组 组 聚 类 后 都 得 到 两 个 类 , 分 别 标记 为 C1、 
E1、E2。 统 计时 间 段 连 
日 均 不 同时 间 段 内 人 次 〈 上 午 、 中 午 、 下 午 、 晚 


D2; 


晨 人 次 )。 


区 域 划分 为 10 个 类 ， 将 每 组 和 每 一 组 分 
类 的 分 布 情况 映射 到 地 图 上 ， 与 实际 情况 相符 合 ， 如 医 


区 


4 所 


果 以 及 不 同时 间 段 内 每 一 个 类 和 统计 结 


4 分 组 结果 和 聚 类 结果 图 
Result of grouping and clustering 
段 内 聚 类 结果 及 统计 结果 的 人 次 


ing results and statistical results in different time periods 


匹配 /人 次 


以 看 出 A、B、F、G 和 


C2; 
月 总 人 次 、 


述 人 次 分 一 个 


/person time 


R- 树 分 组 聚 类 结果 个 月 日 均 。 上 午 (6:00-12:00) 中 午 (12:00-14:00) 下 午 (14:00-18:00) 晚上 (18:00-24:00) ”凌晨 (00:00-6:00) 
Al 120431 4014 1424 453 997 1129 12 
A A2 96859 3229 903 371 479 1016 459 
B Bl 183904 6130 1779 687 912 1676 1076 
CI1 328661 10955 3498 1442 2311 2976 729 
C2 66509 2217 623 242 303 631 419 
D1 209216 6974 1802 641 925 1839 1768 
> D2 60519 2017 737 220 492 506 63 
E El 283043 9435 3341 1071 2619 2203 202 
F Fl 94609 3154 999 365 667 853 270 
G G1 260234 8674 2596 850 1763 2484 981 
从 表 4 可 以 看 出 日 均 人 次 分 布 中 ，C1、E1、G1、D1 和 不 同 区 域 间 的 人 和 群 移动 ，E1 和 C1 之 间 人 和 群 移动 基数 最 大 ， 
B1 区 日 均 人 次 较 多 , 说 明 这 5 个 区 人 和 群 分 布 比较 密集 ， 属 于 除 此 之 外 ，A1l 和 A2、C1 和 D1、B1 和 G1 的 区 域 间 的 人 群 


人 群 聚集 区 。 上 午 日 
此 可 知 上 午 这 4 个 


Gl; 


聚 负 


7 


数 比较 频繁 的 


区 是 C1、 


均 人 次 Cl、E1、G1 和 D1 比较 多 ， 
区 上 午 是 人 和 群 聚 集 区 ;同样 ， 中 午 人 群 聚 
集 区 是 Cl、El、G1 和 D1; 下 午 人 群 密集 地 是 E1、C1 和 
晚上 人 和 群 聚集 
区 是 D1、B1 和 G1。 

为 了 研究 每 一 区 域 的 人 群 移动 情况 ， 本 文 对 每 一 个 
人 群 移动 次 数 进行 统计 ， 统 计 


Gl、El1、D1 和 Bl; 凌晨 人 群 


区 的 
结果 如 表 5 所 示 ， 人 群 移动 次 


D1 区 和 


人 和 群 移动 最 频繁 区 域 。E1 
流入 人 次 是 997 次 ， 流 出 人 次 是 1047 次 ; C1 
F E1 区 , 其 中 流入 人 次 926 次 , 流出 人 次 是 1032 次 ， 
其 他 相对 人 群 移动 人 次 较 多 的 


次 仅 次 了 


Gl 


区 域 拓 # 
表 5 和 图 5 可 以 看 出 ， 
区 人 群 移动 比较 


图 如 图 5 所 示 。 


El 区 、 Al 区、 BI 


义 、C1 区 、 


区 人 和 群 移动 人 次 也 是 最 多 的 ,其 


颇 繁 ， 可 以 看 出 El 


区 在 此 校 是 
中 
区 人 群 移动 人 


区 还 有 D1、Gl1 和 Al 区 。 在 


移动 基数 较 大 。 对 于 区 域内 人 群 移动 差距 比较 大 的 区 域 有 D1 


区 ， 相 差 132 次 和 C1 


区 ， 相 差 106 次 。 
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图 5 人 和 群 移动 频繁 区 域 拓扑 图 


Fig.5 Area topology for crowd frequent movement 
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5 跨 区 人 和 群 移动 统计 /人 次 繁 区域 有 Cl 区 、E1l 区 和 Al 区 。 可 以 根据 实际 情况 在 人 群 

Table 5 Cross areas mobility population statistics /person time 移动 次 数 多 的 地 方 增加 交通 安全 提醒 ， 可 以 在 人 群 移动 频繁 
Al A2 Bl Cl C2 D1 D2 El Fl GI 总 和 地 方 多 投放 共享 单车 或 者 修建 或 者 增加 共享 单车 停放 点 。 对 

Al 0 215 19 55 3 15 21 107 18 59 512 于 该 校 的 人 流 的 方向 性 ， 可 以 按照 A1<=>A2<=>E1<=>D1， 
A2 228 0 4 18 1 10 15 38 7 21 342 G1<=>B1<=>El1<=>C1 的 区 域 道路 连通 情况 设计 校 巴 路 线 或 
Bl 14 3 0 56 1 7 7 10% 4 D0 368 者 共享 单车 车 道 对 于 上 下 午 人 群 流量 次 数 较 多 的 区 域 可 以 


Cl 67 17 66 0 83 237 31 349 96 86 1032 考虑 增加 校 巴 趟 次 或 者 调整 校 巴 调度 次 数 。 


C2 3 1 1 65 0 3 1 46 29 3 152 a 
表 7 午 跨 区 人 和 群 移动 情 ; /人 次 
D1 14 7 9 171 2 0 80 107 34 44 468 让 Pn 人 次 
Table7 Cross areas mobility 


D2 20 12 8 28 0 1ll 0 31 6 74 290 


El 132 34 114 358 48 129 35 0 75 149 1074 population in aftemoon /person time 
i AL A2 Bl Cl C2 Dl D2 El Fl G1 总 和 
Gl 65 21 231 78 3 47 73 140 14 0 672 A 0 2 1 
总 和 562 315 457 926 167 607 269 997 283 618 A 0 0 2 0 0 
ee a Bl 9 2 0 2 0 4 3 4 2 85 182 
四 人 Cl 30 8 30 0 30 74 18 171 62 47 470 

‘Table6 Crossareas mobility population in the morning /person time 
- C2 1 0 1 37 0 1 0 19 1 1 75 

AL A2 Bl Cl C2 DI D2 El Fl GI 总 和 
AL 0 135 14 26 1 7 10 46 10 26 275 2 
D2 5 2 14 0 36 0 15 2 23 106 


A2 77 0 2 5 0 3 7 12 3 6 115 
Bl 8 1 0 28 0 5 2 51 2 78 175 
Cl 39 12 51 0 59 146 21 191 78 60 657 
C2 2 1 1 42 0 3 0 18 19 1 87 
D1 9 a 5 91 1 0 48 58 18 37 274 


El S51 16 54 178 17 46 16 0 45 82 505 
Fl 8 2 2 55 1l1 12 3 41 0 6 140 
Gl 33 10 89 43 1 23 23 81 6 0 309 
总 和 225 123 195 454 61 208 108 476 155 310 


D2 9 11 3 18 0 72 0 19 3 38 173 4 ”结束 语 

El 69 27 86 229 33 83 23 0 54 103 707 

Fl 12 3 4 68 16 25 3 41 0 8 180 本 文通 过 对 某 高 校 无 线 网 络 的 日 志 数据 进行 统计 和 聚 类 

Gl 28 11 129 40 2 29 28 71 6 0 344 分 析 , 得 到 该 校 的 区 域 划分 情况 和 人 和 群 聚 集 和 人 和 群 移动 情况 ， 

总 和 253 208 295 547 112 373 142 507 193 357 为 非 商业 化 或 者 商业 化 活动 策划 作 参 考 。 本 文 首 先 去 除 一 些 
为 了 研究 上 下 午 该 校 各 区 的 人 群 移动 情况 ， 本 文 也 统计 与 实验 无 关 数 据 ， 并 从 日 志文 件 提取 设备 位 置 变化 信息 ， 然 


了 该 校 上 下 午 人 群 移动 人 次 ， 如 表 6 和 7 所 示 ， 其 中 表 6 表 后 利用 设备 位 置 变化 信息 统计 每 一 栋 建 筑 物 中 心经 纬 坐标 对 
示 上 午 跨 区 人 和 群 的 移动 情况 ， 表 7 表示 下 午 跨 区 人 群 的 移动 应 的 连接 人 次 。 再 建立 校园 内 所 有 中 心经 纬 坐标 的 R- 树 索 
情况 。 引 , 并 对 R- 树 叶子 节点 分 组 后 采用 密度 聚 类 算法 对 每 一 组 数 
从 表 6 可 以 看 出 ，C1 区 的 上 午 人 群 移动 人 次 最 多 , 流入  ” 据 聚 类 得 到 校园 区 域 划 分 情况 。 最 后 结合 聚 类 结果 和 统计 结 
人 次 是 926 次 ， 流 出 时 657 次 ， 结 合 表 4 可 以 计算 出 该 区 果 ， 得 到 每 一 个 类 的 中 心经 纬 坐标 的 连接 人 次 ， 并 对 结果 进 
内 部 移动 人 次 ， 即 上 午 日 均 人 群 移动 次 数 减 去 该 区 域 上 午 一 步 求 出 类 之 间 的 人 群 移动 人 次 。 通 过 对 结果 分 析 ， 所 得 结 
群 流入 次 数 再 减 去 区 域 上 午 人 和 群 流 出 次 数 ， 那 么 C1 区 的 论 对 校车 路 径 规划 、 共 享 单车 部 署 、 校 园 功能 区 规划 等 提供 
域内 部 人 和 群 移动 次 数 为 2294， 占 比 是 65.58% 。 同 样 ，E1 区 参考。 另外 ,利用 及 树 可 提高 数据 处 理 效率 ， 并 且 在 R- 树 的 
上 午 人 和 群 移动 人 次 仅 次 于 C1 区 , 流入 人 次 为 507, 流出 人 次 中 可 以 动态 添加 或 者 减少 无 线 AP 从 而 增加 了 实验 的 灵活 
为 707 次 , 区 域内 部 人 群 移动 次 数 为 2127 次 ， 占 比 63.66%。 ”性 。 本 文 下 一 步 的 工作 是 跟踪 人 员 移 动情 况 ， 结 合成 绩 数据 
除了 C1l 区 与 El 区 之 外 , 还 有 D1 和 G1 区 上 午 人 和 群 移动 次 和 上 网 流量 分 析 学 生 的 在 校 行为 。 

数 比较 大 。 从 表 6 中 也 看 出 上 午 人 群 流入 流出 的 次 数 相差 比 参考 文献 ; 

较 大 的 区 域 有 E1， 相 差 200 人 次 ， 其 次 是 B1 和 Cl 区 ， 相 


又 区 > 和 莹 


差分 别 是 120 次 和 110 次 。 从 表 7 可 以 看 出 ，C1 区 和 El 区 [1] Zheng Y, Zhang L, Xie X, et al. Mining interesting locations and travel 
依然 是 下 午 人 和 群 移 动人 次 最 多 的 两 个 区 域 ， 结 合 表 4， 也 可 sequences from GPS trajectories [C]/ Proc of the 18th International 
以 计算 出 两 个 区 域 人 群 移动 次 数 分 别 是 1 387 次 和 1 638 次 ， Conference on World Wide Web. New York:ACM Press, 2009: 
5 比分 别 是 60.01% 和 62.54%。 除 了 这 两 个 区 域 , 还 有 Al 791-800. 
和 G1 区 下 午 人 和 群 移动 次 数 比 较 大 。 从 表 7 中 可 以 看 出 各 区 [2] Gonzélez M C, Hidalgo C A, Barabési A. Understanding individual 
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